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摘 要 计算 机 化 分 类 测验 (Computerized Classification Testing, CCT) 能 够 高 效 地 对 被 试 进行 
分 类 ， 已 广泛 应 用 于 合格 性 测验 及 临床 心理 学 中 。 作 为 CCT 的 重要 组 成 部 分 ， 终 止 规则 决 
定 测验 何 时 停止 以 及 将 被 试 最 终 划 分 到 何 种 类 别 ， 因 此 直接 影响 测验 效率 及 分 类 准确 率 。 已 


有 的 三 大 类 终止 规则 ( 似 然 比 规则 、 贝 叶 斯 决策 理论 规则 及 置信 区 间 规 则 ) 的 核心 思想 分 别 


K 


为 构造 假设 检验 、 设 计 损 失 函 数 和 比较 置信 区 间 相 对 位 置 。 同 时 ， 在 不 同 测验 情境 下 ，CCT 


的 终止 规则 发 展 出 不 同 的 具体 形式 。 未 来 研究 可 以 继续 开发 贝 叶 斯 ; 
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境 以 及 结合 作答 时 间 和 机 器 学 习 算 法 。 针 对 测验 实际 需求 ,三 类 终 1 


上 规则 在 合格 性 测验 上 均 


有 应 用 潜力 ， 而 临床 问卷 则 倾向 应 用 贝 叶 斯 规则 。 


关键 词 计算 机 化 分 类 测验 ， 终 止 规则 ， 似 然 比 ， 随 机 缩减 ， 贝 叶 基 


决策 理论 


由 于 能 够 改变 传统 纸 笔 测验 中 相对 固化 的 试题 形式 、 更 深刻 地 体现 “ 因 材 施 测 ” 和 “高 


效 施 测 ”， 计 算 机 测验 尤其 是 计算 机 化 自 适 应 测验 (Computerized Adaptive Testing, CAT) i 
年 来 得 到 飞速 发 展 。 对 于 CAT 而 言 ， 其 测验 目的 一 般 是 准确 估计 被 试 能 力 ， 而 计算 机 化 分 
I (Computerized Classification Testing, CCT) 一 一 作为 CAT 的 一 个 重要 分 支 一 一 则 以 
分 类 考生 为 目的 。 有 具体 来 说 ，CCT 在 CAT 的 基础 上 可 以 根据 预 设 的 分 界 分 数 将 被 试 划分 到 
两 个 比如， 掌握 和 未 掌握 ) 或 多 个 (比如 ， 合格、 良好 和 优秀 〉 不 同 的 类 别 中 。 相 比 于 传 


统 纸 笔 测验 ,CCT 的 优势 在 于 : 首先 , CCT 不 仅 可 以 自 适应 地 呈现 最 适合 被 试 作 答 的 题目 ， 
还 可 以 在 保持 相同 决策 精度 下 大 大 缩短 测验 长 度 (Spray & Reckase, 


1996) ， 进 而 降低 测验 


成 本 、 减 少 被 试 疲劳 效应 的 影响 ; 其 次 , CCT 依托 于 计算 机 施 测 的 特点 使 其 能 够 为 被 试 呈现 


更 加 丰富 的 测验 内 容 和 题目 形式 , 并 获取 更 多 元 细致 的 被 试 数据 (比如 交互 式 测 评 ) ; 再 者 ， 
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CCT 的 高 效 计 算 力 使 得 更 精细 测量 模型 和 算法 的 使 用 成 为 可 能 ， 比 如 融入 过 程 性 或 多 模 态 


数据 的 模型 (Sie, etal., 2015; Zhan, et al., 2021) 能 


够 进一步 满足 各 种 测验 需求 、 提 升 分 类 决 


策 的 可 靠 性 。 目 前 ，CCT 已 经 在 合格 性 测验 (比如 ,职业 资格 考试 ) 以 及 临床 心理 学 或 医学 
诊断 比如， 焦虑、 抑郁 等 精神 疾病 的 自我 报告 问卷 和 健康 与 护理 问卷 ) 中 得 到 广泛 应 用 


(Finkelman et al., 2011; Huebner & Fina, 2015; Smits & Finkelman, 2013) 。 


作为 CAT 的 特例 ， 完 整 的 CCT 同样 包括 心理 


参数 估计 方法 以 及 终止 规则 五 个 核心 部 分 。 但 是 如 


测量 模型 、 标 定 的 题库 、 选 题 策略 、 能 力 


前 所 述 , 两 者 在 测验 目的 上 并 不 相同 : CAT 


的 目的 是 对 被 试 能 力 进行 准确 估计 ( 陈 平 ,2016), 而 CCT 是 要 对 被 试 的 类 别 进行 准确 划分 。 


因此 ， 终 止 规则 是 区 分 CCT 与 CAT 的 一 项 主要 特征 〈 任 赫 ， 陈 乎 ,2021) 。 总 体 而 言 ，CCT 


终止 规则 关注 的 核心 是 系统 是 否 有 足够 的 把 握 将 被 试 划分 到 某 个 特定 的 类 别 ,或 者 说 系统 是 


否 可 以 接受 当前 所 做 出 的 决策 (比如: 继续 测验 、 将 被 试 划分 到 掌握 /未 掌握 类 别 ) 可 能 产生 


的 成 本 〈 如 : 测验 效率 的 牺牲 、 第 工 类 或 第 IT 类 错误 率 ) 。 由 此 ， 终 止 规则 决定 测验 何 时 停 
止 以 及 将 被 试 最 终 划 分 到 何 种 类 别 ， 将 直接 影响 测验 的 效率 和 分 类 准确 率 。 已 有 的 CCT 终 
止 规则 包括 定 长 (fixed-length ) 的 规则 ( 即 每 名 被 试 作答 固定 数量 的 题目 ) 以 及 变 长 (variable- 


length) 的 规则 《〈 即 每 名 被 试 作答 数量 不 定 的 题目 


) 。 定 长 的 规则 比较 简单 ， 不 再 费 述 ， 本 


文 主要 关注 变 长 的 规则 。 需 要 指出 的 是 ,尽管 定 长 终止 规则 的 效率 较 低 ， 但 是 它 可 以 保证 所 


有 被 试 作答 相同 长 度 的 测验 ,能够 减少 被 试 对 测验 公平 的 质疑 , 主要 应 用 于 在 高 利害 测验 中 。 


与 之 相对 应 ， 变 长 的 规则 具有 高 效 的 特点 ， 能 够 大 大 地 缩短 测验 长 度 ,， 可 以 广泛 应 用 于 各 类 


低 利 害 测验 中 。 


变 长 CCT 的 实施 过 程 可 以 看 作 一 种 序 贯 抽样 方案 , 即 “在 抽样 时 不 规定 总 的 抽样 个 数 ， 


而 是 根据 已 抽取 的 样本 结果 决定 是 否 继续 抽样 , 直 


至 停止 ”最 早 的 变 长 终止 规则 是 Ferguson 


(1969) 根据 序 贯 检验 (Wald，1947) 提出 的 序 贯 似 然 比方 法 (Sequential Probability Ratio 


Test, SPRT) 。SPRT 方法 通过 事先 设 定 第 I 和 第 II 


类 错误 率 来 控制 不 同 决策 的 损失 ,并 使 用 


二 项 分 布 对 被 试 作答 进行 建 模 ,， 相当 于 假设 题库 中 所 有 题目 的 正确 作答 概率 相同 ,， 相应 地 以 
随机 或 固定 顺序 呈现 题目 。 但 是 ，Lewis 和 Sheehan (1990) 则 认为 应 该 在 测验 过 程 中 直接 


控制 每 一 步 可 能 造成 的 损失 ， 这 就 需要 利用 贝 叶 斯 理论 进行 决策 。 另 外 ,为 了 使 序 贯 抽样 过 


程 能 够 与 被 试 能 力 相 适应 ，Reckase (1983) 与 Kingsbury 和 Weiss (1983) 分 别 引 入 项 目 反 


应 理论 (tem Response Theory, IRT) 模型 。 前 者 使 用 IRT 模型 代替 二 项 分 布 ， 进 而 发 展 出 允 
许 自 适 应 选 题 的 SPRT 方法 (也 即 对 Ferguson 方法 的 改进 ) ， 而 后 者 利用 能 力 估计 的 置信 区 
间 进 行 分 类 决策 。 综 上 ， 前 人 分 别 从 不 同 的 视角 出 发 ,基于 不 同 的 统计 学 理论 建构 出 三 类 终 
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止 规则 ， 它 们 分 别 是 似 然 比 规则 、 贝 叶 斯 决策 理论 规则 《〈 后 文 简称 贝 叶 斯 规则 ) 和 置信 区 间 
规则 (Ability Confidence Intervals,ACI) 。 

此 外 ， 在 构造 具体 的 CCT 终止 规则 时 ， 还 需要 考虑 不 同 测验 情境 的 特点 ， 主 要 包括 被 
试 的 类 别 数 和 测验 的 维度 数 。 在 被 试 类 别 方面 ， 有 时 只 需要 将 被 试 划分 到 两 个 不 同类 别 ， 而 
有 时 则 需要 将 被 试 划分 到 三 个 及 以 上 的 不 同类 别 ， 它 们 分 别 对 应 于 二 分 类 的 CCT 与 多 分 类 
的 CCT. 在 测验 维度 方面 , 一 些 测验 只 需要 考虑 被 试 在 单个 维度 上 的 潜在 特质 , 但 是 更 多 的 
心理 或 教育 测验 往往 需要 同时 考察 被 试 在 多 个 维度 上 的 潜在 特质 ( 康 春花 , 辛 涛 ,2010) ,这 
就 分 别 对 应 于 单 维 CCT (Unidimensional CCT, UCCT) 与 多 维 CCT (Multidimensional CCT, 
MCCT) 。 需 要 说 明 的 是 ， 多 分 类 的 CCT 终止 规则 在 构造 上 与 二 分 类 的 相 比 有 较 大 差异 ， 
而 MCCT 的 终止 规则 通常 可 以 由 UCCT 经 过 较为 直接 的 推广 而 得 到 。 
基于 此 ， 本 文 将 结合 不 同 的 测验 情境 ， 对 似 然 比 规则 、 贝 叶 斯 规则 以 及 置信 区 间 规 则 分 
别 进行 详细 述评 ， 然 后 对 各 种 规则 的 优 劣 进行 讨论 分 析 ， 最 后 对 CCT 终止 规则 的 未 来 研究 
方向 及 应 用 进行 说 明 。 
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似 然 比 规则 的 核心 是 通过 构造 似 然 比 统计 量 〈likelihood ratio statistics) 进行 假设 检验 。 
一 般 而 言 ， 似 然 比 规则 的 构建 主要 包含 四 个 步 又 〈 任 赫 ， 陈 平 ,2021) : C1) 构造 被 试 能 
属于 特定 类 别 的 假设 检验 ，(2) 在 任意 两 个 相 邻 的 类 别 之 间 确 定 能 力 阔 值 ; (3) 在 每 个 阐 
值 的 上 下 给 定 一 个 6 邻 域 。 当 被 试 的 能 力 值 落 在 该 区 间 时 ， 认 为 被 试 能 力 与 阐 值 没有 显著 差 
异 ， 因 此 该 区 间 也 被 称 为 无 差别 区 间 ; O 构建 似 然 比 统计 量 并 确定 拒绝 域 。 具 体 地 说 ， 
根据 不 同 的 假设 检验 与 统计 量 ， 似 然 比 规则 可 以 被 划分 为 SPRT 和 广义 似 然 比方 法 


(Generalized Likelihood Ratio, GLR) ， 下 面 进 行 详细 介绍 。 


2.1 序 贯 似 然 比方 法 (SPRT) 
2.1.1 ”二 分 类 的 SPRT 方法 

最 早 的 二 分 类 似 然 比 终止 规则 就 是 Wald (1947) 提出 的 SPRT。 在 此 基础 上 ,研究 者 们 
主要 致力 于 解决 两 个 方面 的 问题 : 一 是 如 何 进一步 提升 二 分 类 SPRT 的 决策 效率 ; 二 是 如 何 
将 单 维 的 二 分 类 SPRT 拓展 到 多 维 情境 。 对 于 第 一 个 问题 ，Finkelman 〈2003,2010) 发现 如 
果 将 随机 缩减 Cstochastic curtailment) 技术 与 SPRT 方法 相 结 合 可 以 进一步 提高 测验 效率 ， 
因此 在 SPRT 的 基础 上 结合 随机 缩减 技术 开发 出 随机 缩减 的 SPRT (Stochastically Curtailed 


SPRT,SCSPRT) 。 需 要 指出 的 是 ， 上 述 方法 仅 适 用 于 单 维 情境 。 对 于 第 二 个 问题 ， 即 将 已 有 
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方法 推广 至 MCCT 时 , 规则 的 构建 思路 基本 没有 变化 , 但 是 能 力 参数 的 多 维 性 会 导致 UCCT 
中 的 能 力 分 界 点 转变 为 多 维 空间 中 的 能 力 分 界 曲线 或 曲面 ( 任 赫 ， 陈 平 ,2021) 。 为 此 , Nydick 


(2013) 从 两 个 不 同 的 角度 解决 这 一 问题 ,分 别提 出 约束 的 SPRT(Constrained SPRT, C-SPRT) 


以 及 使 用 空间 投影 方法 构建 的 投影 SPRT (Projected SPRT, P-SPRT) 。 另 外 ,Nydick (2013) 


还 在 C-SPRT 的 基础 上 结合 随机 缩减 技术 开发 出 随机 缩减 的 多 维 SPRT (Multidimensional 


SCSPRT, M-SCSPRT) 。 下文 依 次 介绍 单 维 的 SPRT 与 SCSPRT 以 及 多 维 的 C-SPRT、P-SPRT 


与 M-SCSPRT。 
(1) 单 维 的 SPRT 方法 〈SPRT 与 SCSPRT) 


在 UCCT 中 ，SPRT 使 用 一 组 简单 假设 来 判断 被 试 的 能 力 分 类 ， 即 


Hp:6 = 0, = 0o — ô (1) 
Hy:0 = 0, =O) +8 


其 中 ，6 是 被 试 的 能 力 值 ，6o 为 事先 确定 的 分 界 分 数 ，6 为 邻 域 大 小 的 一 半 ， 即 无 差别 区 间 帘 
度 的 一 半 ，[91, 0] 就 是 构造 的 无 差别 区 间 。 由 此 ，Ho 表 示 被 试 恰 好 被 划 入 未 掌握 的 一 类 ，Hi 
表示 恰好 被 划 入 掌握 的 一 类 。 

由 此 ，SPRT (Wald, 1947) 构造 对 数 似 然 比 统计 量 如 下 ， 
L(OulYiy’) 
L(Y )} 


Cij' = log [LR(@,, 8Y; j] = og| (2) 


z5 中 ， L(9|Yij' ) 为 基于 IRT 的 似 然 函 数 ， Yiy = (Yi, Yj2, my Yi) ABCRITE Aj = 1,2, weg 


上 的 作答 向 量 。 记 第 1. BRR A AaAlp, SA =B/(1-—a). B=(1-8)/a, 


Cı = log(A). C, = log (B) (Finkelman, 2003) 。 被 试 i 完成 j' 道 题目 后 ， 计 算 对 数 似 然 比 统 
计量 Cj， 并 按 如 下 规则 对 被 试 给 出 判断 : 若 Cij < Cy, 则 考生 的 分 数 更 有 可 能 低 于 分 数 线 ， 

判断 被 试 属于 “未 掌握 ”， 并 结束 测验 ， 记 测验 长 度 为 EC > CG,， 则 考生 的 分 数 更 有 
可 能 高 于 分 数 线 ， 判 断 被 试 属 于 “掌握 ”， 并 结束 测验 ， 记 测验 长 度 为 1 ， 否 则 ， 要 求 被 斌 
继续 作答 下 一 道 题 。 例 如 ， 图 1 展示 了 使 用 两 参数 逻辑 斯 蒂 克 模型 模拟 数据 得 到 的 “不 同 能 
力 取 值 下 的 对 数 似 然 函数 值 ” 当 分 界 分 数 取 -0.5.6 = 0.1、a = 8 = 0.05 时 , 得 到 6, = 一 0.6、 


Ou = -0.4、Ci = -2.94、Cu = 2.94. JEM, log [L(@,1¥;,;7)] = —9.68, log [L(O1|Yi;')] = —12.41, 


于 是 计算 得 到 对 数 似 然 比 统计 量 Cip = (—9.68) — (-12.41) = 2.73. HFC < Cij<Cu， 所 以 


继续 测验 。 
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1 不 同 能 力 取 值 下 的 对 数 似 然 函数 值 示例 


EF” 的 性 


i (Wald & Wolfowitz, 1948) 表明 : 在 “测验 持续 进行 直至 满足 Ci < 
TUL Fy SPRT 是 根据 同样 观测 个 数 进行 的 检验 中 具有 最 大 检验 力 


i=) 
关于 现实 情境 下 的 疲劳 效应 、 练 习 效应 等 因素 的 影 


啊 ， 不 可 能 要 求 被 试 持续 作答 直至 满足 上 述 条 件 《〈 任 赫 ， 陈 平 ,2021) 。 因 此 在 CCT 的 实际 
使 用 中 , 一 般 需 要 事先 设 定 最 大 测验 长 度 /。 于 是 , 研究 者 在 设计 CCT 终止 规则 时 一 般 规 定 ， 
若 在 被 试 完成 / 道 题 目 时 测验 仍 未 结束 ， 则 通过 下 述 准 则 对 被 试 进行 强制 分 类 : Cy < Co, 


则 停止 测验 ， 测 验 长 度 为 /， 并 判断 被 试 属于 “未 掌握 ”; 


EC > Co， 则 停止 测验 ， 测 验 长 


度 为 ]， 并 判断 被 试 属于 “掌握 ”。 其 中 ，Co = (C + Cu)/2。 


将 被 试 最 终结 束 测验 时 实际 作答 的 题目 数 记 为 K, 对 被 试 的 分 类 判断 结果 记 为 D( 其 中 


D = m 表 示 被 试 属于 “掌握 ”, D = ?表示 被 试 属于 “未 掌握 ”) ， 则 SPRT 的 判断 准则 可 以 


概括 如 下 ， 


停止 测验 ,K = j',D =n 
停止 测验 ,K = j',D=m 


继续 测验 


Ui <J, Cy < QRU’ = J, Ci < Co} 


{i <J, Ciji > C,} RY’ =J, Ciy > Co (3) 
否则 


值得 注意 的 是 ， 在 SPRT 中 引入 最 大 测验 长 度 ] 虽 然 能 够 解决 一 些 现实 问题 ， 但 是 它 违 
背 Wald-Wolfowitz 定理 的 前 提 假 定 ， 导 致 SPRT 不 再 是 最 优 序 贯 检验 。 在 现实 测验 中 ， 这 不 
仅 会 增加 测验 长 度 和 测验 时 间 ， 而 且 会 提高 题目 曝光 率 。 
基本 不 变 的 基础 上 ， 尝 试 缩短 测验 长 度 可 以 减轻 上 述 问 题 ， 有 助 于 CCT 的 应 用 。 随 机 缩减 


技术 (Finkelman, 2008; Huebner & Fina, 2015) 正 是 一 种 尝试 缩短 测验 长 度 的 方法 。 它 的 核 


因此 ， 在 维持 SPRT 的 分 类 准确 率 


心思 想 是 : 如 果 被 试 未 来 的 作答 不 太 可 能 会 改变 当前 对 被 试 的 分 类 判断 , 那么 此 时 便 结束 测 
验 是 合理 的 。 

SCSPRT 规则 就 是 一 种 将 随机 缩减 技术 与 SPRT 相 结 合 的 似 然 比 终止 规则 。 在 完整 保留 
公式 (3) 所 定义 的 判断 准则 的 基础 上 ，SCSPRT 对 原本 需要 继续 作答 的 被 试 ;进行 预 分 类 ， 
并 预测 预 分 类 结果 能 否 保持 。 具 体 地 说 ，SCSPRT 首先 按照 SPRT 方法 计算 等 式 (2) 所 定义 
的 对 数 似 然 比 统计 量 Ciy ， 然 后 再 计算 “被 试 完成 整 份 测验 ， 即 作答 完 / 题 后 ， 得 到 的 分 类 结 
果 ” 与 当前 的 预 分 类 结果 一 致 的 概率 。 使 用 D,, 表 示 在 被 试 完成 j' 道 题目 后 对 被 试 的 预 分 类 ; 
Dj 表示 被 试 作答 的 题目 数 达 到 最 大 测验 长 度 ] 时 得 到 的 分 类 结果 。 上 述 概率 就 可 以 表示 为 
P(D, = Dy|Cij')， 同 样 使 用 Co 作为 判断 准则 。 于 是 ， 对 于 预 分 类 为 “未 掌握 ”的 被 试 ， 


P(D, = Dy|Ci') = P(D, = nlCiy') 


在 公式 G) 中 ， 若 j < ] 且 C1 < Cy < Cu， 被 试 将 继续 进行 作答 。 但 是 ，SCSPRT 方法 
Ej <J, WAR G) 所 定义 的 判断 准则 进行 如 下 调整 ， 
停止 测验 ,KK =j',D =n {Ci;" < Ci} 或 {CI < Cij' < Co, P(D/ = nlCi;') > 1— E1} 
停止 测验 ,K =j, D=m {Ci = Co 或 fc > Ci > Co P(D, =m] Cyh >1—e2}, (4) 
继续 测验 否则 


其 中 ， 临 界 值 ei 与 ez 由 测验 开发 者 事先 给 定 。 以 往 的 模拟 研究 表明 : 在 保证 一 定 分 类 精度 的 
前 提 下 ， 当 6 与 ez 都 取 0.05 时 ，SCSPRT 能 大 幅 缩短 测验 长 度 (Finkelman, 2008, 2010) 。 
P(D, = ?|Cij) 的 具体 计算 详 见 Finkelman (2008) 与 任 赫 和 陈 平 (2021) 。 需 要 指出 的 是 ， 
在 自 适应 选 题 的 情境 下 ， 无 法 提前 确定 接 下 来 选取 的 题目 ， 这 会 给 P(D, = n|Ciy') 的 计算 带 
来 一 定 困难 。 此 时 ， 可 以 选择 一 组 “合适 ”的 题目 痊 代 被 试 未 来 实际 作答 的 题目 。 GIG, A 
使 用 最 大 信息 量 选 题 策略 , 可 以 选择 在 被 试 “ 当 前 能 力 估计 值 ” 具 有 最 大 信息 量 的 ] 一 站 道 题 
作为 蔡 代 题目 。 有 研究 者 指出 ， 如 果 使 用 替代 题目 ， 需 适当 减 小 el 和 es 的 取 值 《Finkelman,， 


2008) 。 


(2) 多 维 的 SPRT 方法 〈C-SPRT、P-SPRT 与 M-SCSPRT) 

在 上 述 的 UCCT 中 ， 通 过 事先 确定 的 能 力 阔 值 8o， 可 以 很 容易 获得 公式 〈1) 中 所 需要 
的 01 与 9.， 并 由 此 计算 公式 (2) 所 构造 的 SPRT 统计 量 Ci 。 但 是 在 MCCT 中 ， 事 先 确定 的 
只 能 是 能 力 分 界 曲线 或 曲面 ， 导 致 无 法 直接 得 到 某 个 确定 的 闵 值 06。 此 外 ， 即 使 获得 96。， 多 
维 空间 中 的 go 在 不 同方 向 上 可 以 构造 任意 多 个 6 邻 域 , 因此 如 何 选择 可 用 于 Ci 计算 的 6, 和 60, 
是 另 一 个 需要 解决 的 问题 。 


C-SPRT 使 用 “约束 在 分 界 曲线 上 的 能 力 估计 值 ” 作 为 能 力 分 界 点 9 的 近似 “6。，， 并 
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ylin 


在 该 点 处 ， 沿 分 界 曲线 的 法 向 量 方向 计算 相应 的 9 和 6u 的 近似 《人 和 6 ) 。 有 具体 地 说 ， 被 试 
i 完成 j" 道 题目 后 ，C-SPRT 算法 首先 在 能 力 分 界 曲线 或 曲面 9g(6) = 0) 上 计算 能 力 参 数 的 
极 大 似 然 估计 值 ， 并 将 其 作为 阅 值 的 近似 ， 即 

ðo = ee (5) 


EH, O = {0:g(0) = 0}。 然 后 ， 在 6 处 沿 9(6) = 0 的 法 向 量 方 向 构造 6 邻 域 。 记 0 为 该 方 
名 上 的 单位 向 量 ， 可 得 到 无 差别 区 间 的 上 、 下 限 分 别 为 0, = 6 + 50550, = 060 一 60s。 最 
后 ， 再 按照 SPRT 构造 似 然 比 统计 量 ( 如 公式 〈2) ) ， 就 可 以 得 到 对 数 似 然 比 统计 量 Ci = 


log[LR(6. 8,|¥;;")] - 

P-SPRT 与 C-SPRT 唯一 的 区 别 在 于 它 采 用 “空间 投影 ”而 非 “ 似 然 函数 约束 ”的 方法 
将 分 界 曲线 或 曲面 转换 为 可 用 于 假设 检验 的 分 界 点 。 具 体 地 说 ，P-SPRT 将 基于 极 大 似 然 估 
计 的 被 试 能 力 估计 值 投影 至 能 力 分 界 曲线 或 曲面 9(9) = 0 上 , 并 将 投影 点 视 作 单 维 情境 下 能 
FABRE MIE, BP 


6, = arg min|[@, = J (6) 


Ep, 6, ean MEAL REHE [| h Pea ER SR AE TAI EES. MEO P-SPRT 与 C-SPRT 
REGO, 、 命 以 及 Ci ， 并 按照 等 式 G) 所 定义 的 准则 对 被 试 进行 分 类 判断 。 

此 外 , 与 单 维 随机 缩减 方法 类 似 ， 同 样 可 以 在 多 维 似 然 比 统计 量 的 基础 上 融入 随机 缩减 
技术 。M-SCSPRT 就 是 将 多 维 情境 下 的 C-SPRT 与 随机 缩减 相 结合 的 终止 规则 。 具 体 地 说 ， 
与 单 维 的 SCSPRT 类 似 ，M-SCSPRT 使 用 C-SPRT 的 方法 CER G) ) 计算 似 然 比 统计 量 ， 
并 按照 随机 缩减 技术 计算 P(Di = Dy,|Cij')， 进 而 根据 公式 G) 和 “(4) 对 被 试 进行 分 类 。 
2.1.2 ”多 分 类 的 SPRT 方法 

多 分 类 情境 是 指 测验 要 将 被 试 划 分 到 三 个 及 以 上 的 不 同类 别 中 。 在 此 情境 下 , 如 果 被 试 
需要 被 分 到 $ + 1 个 不 同 的 类 别 之 中 , 就 需要 定义 S 个 能 力 分 界 点 将 不 同 被 试 区 分 开 来 。 目 前， 
在 多 分 类 情境 下 的 终止 规则 研究 仅 限于 UCCT。 这 些 研究 在 二 分 类 方法 的 基础 上 , 使 用 不 同 
的 思路 在 多 个 分 界 点 处 构造 假设 检验 与 检验 统计 量 以 完成 对 被 试 的 分 类 。 下面 对 单 维 多 分 类 
CCT 中 的 SPRT 方法 进行 介绍 。 

以 上 述 的 S$ + 1 个 类 别 为 例 ， 多 分 类 的 SPRT 规则 根据 所 确定 的 5 个 能 力 分 界 点 ， 建 立 $ 
个 无 差别 区 间 以 及 与 之 对 应 的 S 个 二 分 类 SPRT 检验 。 为 便于 理解 ， 图 2 展示 的 是 一 个 三 分 
类 问题 的 示意 图 。 其中， 91 和 901 分别 表示 能 力 分 界 点 091 的 无 差别 区 间 的 上 、 下 界 ，02b% 和 092, 


分 别 表示 90; 的 无 差别 区 间 的 上 、 下 界 。 


被 试 类 别 


类 别 1 类 别 2 类 别 3 


2 一 个 三 分 类 问题 的 示意 图 


(1) Sobel-Wald 方法 


Sobel 和 Wald (1949) 所 提出 的 多 分 类 SPRT 方法 在 每 个 能 力 分 界 点 9. 处 ， 构 建 一 组 简 
单 假设 ， 即 


Hs0:0 < Osi = 0; — 6 出 
Hi:0 = Oey = 0, + 8’ 


其 中 ，9sw 和 bs 分 别 表示 能 力 分 界 点 gs 所 对 应 无 差别 区 间 的 上 、 下 界 。 基 于 公式 〈7) 的 假设 
检验 ， 可 以 按照 2.1.1 中 的 SPRT 构造 似 然 比 统计 量 ， 


L(9su|¥ ij") 
L(65:|¥ij)} 


由 此 ， 即 可 在 每 个 6. 处 完成 一 组 二 分 类 的 SPRT 检验 。Sobel-Wald 方法 按照 如 下 准则 对 


Csi = og| (8) 


被 试 进行 分 类 判断 :结合 所 有 的 S 组 检验 ， 如 果 Hio 被 接受 ， 就 停止 测验 ， 测 验 长 度 为 ， 判 


断 被 试 属于 能 力 最 低 的 类 别 ， 即 类 别 1; 如 果 Hsi 被 接受 ， 也 停止 测验 ， 测验 长 度 为 ， 判 断 


被 试 属于 能 力 最 高 的 类 别 ， 即 类 别 $ + 1， 如 果 HHs1 和 Hs41yo 被 同时 接受 ， 同 样 停止 测验 ， 测 


验 长 度 为 六 ， 判 断 被 试 属 于 类 别 s + 1; 否则 ,就 继续 进行 测验 。 如 果 测 验 达到 最 大 长 度 ]， 则 
停止 测验 ， 测 验 长 度 为]， 并 根据 被 试 i 的 能 力 极 大 似 然 估计 


~ 


直 记 和 分 界 点 的 相对 位 置 对 其 进 
H Eggen (1999) 应 用 于 CCT, 后 来 被 Thompson (2009) 以 及 van Groen 
等 人 (2014) 在 三 分 类 的 ; 


行 分 类 。 该 方法 最 早 


jasi 


| 


青 境 下 进行 过 评估 。 然 而 ，Ghosh (1970) 认为 ， 在 考虑 更 多 的 类 


别 数 时 ，Sobel-Wald 方法 可 能 无 法 得 出 一 个 明确 的 分 类 判断 。 


(2) Armitage 方法 


为 解决 Sobel-Wald 方法 可 能 无 法 得 出 结论 的 缺陷 ，Armitage (1950) 提出 一 种 比较 所 有 


可 能 的 类 别 组 合 的 SPRT 方法 。 有 具体 地 说 ， 对 于 5 个 能 力 分 界 点 ， 就 需要 构造 9(S + 1)/2 组 假 


设 检 验 (Armitage, 1950; Seitz & Frey, 2013; Spray, 1993) 。 此 时 ， 任 一 组 假设 检验 的 原 假 设 


二 ,与 备 择 假设 分别 表 示 考 生 属 于 类 别 p 和 q (p <q €{1,..5+1p ， 即 
Hy: < Oy, = 0) —6 m 
Hq: 0 > O(q-1)u = 0a-1 十 ô 
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对 应 的 检验 统计 量 为 ， 


L(9¢q- wulYiy 中 (10) 


Coa =l 
pqij og E au y LO pil¥ 


Armitage 方法 的 分 类 准则 为 : WRA EF BL, MERES Hp 则 停止 测验 ， 
测验 长 度 为 ,判断 被 试 属于 类 别 p; 否则 , 测试 将 继续 进行 , 直到 满足 上 述 条 件 或 达到 最 大 
测试 长 度 为 止 。 

需要 说 明 的 是 ， 只 有 当 Sobel-Wald 方法 无 法 给 出 准确 的 分 类 判断 时 ， 其 与 Armitage 的 
方法 才 存 在 差异 (Wang etal.,2021)。 而 在 大 多 数 情况 下 , 这 两 种 方法 所 得 到 的 结果 都 一 致 ， 
但 是 Armitage 方法 需要 进行 更 多 次 检验 。Wang 等 人 (2021) 的 研究 中 使 用 一 个 四 分 类 问题 
为 例 ， 对 其 进行 理论 分 析 ， 感 兴趣 的 读者 可 以 参阅 。 也 就 是 说 ，Sobel 和 Wald 方法 在 测验 的 
分 类 准确 率 上 应 与 Armitage 方法 相近 ， 但 在 测验 耗 时 上 应 更 胜 一 筹 ， 这 与 已 有 研究 的 结果 


— (Govindarajulu, 1987; Ghosh & Sen, 1991) 。 


— 


2.2 广义 似 然 比方 法 (GLR) 
在 SPRT F, 最 大 测验 长 度 的 使 用 可 能 会 降低 分 类 准确 率 。 为 此 ，Bartroff 等 人 (2008) 
将 GLR 应 用 于 UCCT。 之 后 ， 研 究 者 又 将 随机 缩减 技术 与 GLR 相 结 合 ， 提 出 随机 缩减 的 


GLR 方法 (Stochastically Curtailed GLR, SCGLR; Huebner & Fina, 2015). 4b, Nydick(2013) 


也 将 GLR 方法 推广 到 多 维 情境 中 ， 提 出 多 维 的 广义 似 然 比 方法 (Multidimensional GLR, M- 
GLR) 。 
2.2.1 ”二 分 类 的 GLR 方法 

(1) 单 维 的 GLR 方法 (GLR 与 SCGLR) 

不 同 于 SPRT 方法 使 用 一 组 简单 假设 〈 即 公式 A) ) ，GLR 使 用 下 述 的 一 组 复合 假设 
对 被 试 进 行 分 类 判断 ， 


Ho: 0 < Ol 
Hi:0 > 0,. Wy 


由 此 ，GLR 统计 量 Cij, 是 在 “无 差别 区 间 ” 两 侧 各 自 的 对 数 似 然 函 数 最 大 值 之 比 ， 即 
sup [L(9|¥ij")| 


6,2 
Cir = log eee 
o= OE sup (Mi I i 


例如 ， 在 图 1 中 ， 相 比 于 SPRT 使 用 在 9. 处 的 对 数 似 然 函数 值 (—9.68) ，GLR 使 用 在 

2&. 右 侧 的 似 然 函数 最 大 值 〈 即 9; 处 的 -6.60) ， 此 时 在 6 左 侧 的 似 然 函 数 最 大 值 与 SPRT 时 

致 , 于 是 计算 得 到 Cij = 5.81。 在 得 到 广义 似 然 比 统计 量 Cij 后 , GLR 规则 也 按照 公式 (3 ) 
所 定义 的 准则 对 被 试 进行 分 类 判断 。 


此 外 ， 也 可 以 将 随机 缩减 技术 与 GLR 相 结合 ， 得 到 随机 缩减 的 GLR 方法 。 与 SCSPRT 
类 似 ，SCGLR Æ GLR 的 基础 上 结合 随机 缩减 技术 而 得 到 的 。 有 具体 而 言 ， 它 使 用 与 GLR 
方法 相同 的 统计 量 Cij (如 等 式 (12) 所 示 ) ， 然 后 根据 随机 缩减 技术 的 要 求 计 算 
P(D, = Dj'|Cij')， 最 后 根据 公式 (3) 和 〈4) 对 被 试 做 出 分 类 判断 。 

(2) 多 维 的 GLR 方法 

等 式 (12) 所 示 的 GLR 统计 量 Ci 是 在 “无 差别 区 间 ” 两 侧 各 自 的 对 数 似 然 函数 最 大 值 
之 比 , 不 再 需要 等 式 (2) 中 的 9 和 6 。 因 此 ,在 将 GLR 推广 到 MCCT 时 ,不 再 需要 考虑 如 
何 进行 “分 界 曲线 或 曲面 ”和 分 界 点 的 转换 的 问题 。M-GLR 统计 量 的 定义 为 
| 


g T 
sup [L(02|¥;)] 
0.€On 


Cij' =lo 


(13) 


其 中 ，6m 表 示 多 维 空间 中 属于 掌握 类 别 的 被 试 能 力 范 围 ，9 表 示 多 维 空间 中 属于 未 掌握 类 
别 的 被 试 能 力 范围 。 因此 ， 上 式 可 以 理解 为 对 数 似 然 函 数 在 能 力 分 界 曲线 或 曲面 两 侧 的 最 大 
值 之 比 。 与 等 式 (12〉 所 定义 的 单 维 GLR 统计 量 相 比 ， 等 式 (13) 与 其 形式 一 致 ， 仅 将 似 
然 函数 求 极 大 值 的 区 域 由 两 个 单 维 的 区 间 扩 展 到 两 个 多 维 的 空间 。 因 此 , 通过 广义 似 然 比 的 
方式 得 到 Cij 后 ，M-GLR 规则 与 GLR 一 样 ， 也 是 按照 等 式 G) 的 准则 对 被 试 进行 分 类 。 
2.2.2 ”多 分 类 的 GLR 方法 

回 到 2.1.2 HS + 1 个 分 类 的 问题 ， 针 对 所 定义 的 $ 个 无 差别 区 间 ， 将 由 它们 隔 开 的 S + 1 


个 不 同类 别 的 被 试 能 力 区 间 分 别 记 为 91 = {9 < Oi), s 0s = {96_vw <9 < Og}, Osa = 


{0 > Osu} XE Wang 等 人 (2021) 提 出 的 多 分 类 的 GLR 方法 (multi-category GLR, mGLR)， 
得 到 如 下 的 复合 假设 


H,:0 € Og. (14) 


HE, Wang “A. (2021) 指出 可 以 根据 序 贯 分 析 中 的 多 假设 GLR 检验 (Tartakovsky, et 
al.,2014) ， 为 上 述 复合 假设 构造 如 下 的 多 分 类 GLR 统计 量 


i reĝ 
ji 
sup IE- LOY) 


, 


Ci =lo 


其 中 ， 分 子 部 分 表示 似 然 函 数 的 极 大 值 ， 分 母 部 分 表示 在 能 力 区 间 @s 内 似 然 函 数 的 极 大 值 。 
基于 此 ，mGLR 方法 定义 如 下 的 分 类 准则 : 

(1) 当 6 不 属于 任何 一 个 无 差别 区 间 时 ,如果 存在 s， 对 所 有 t s, ACH > acer WF 
止 测 验 , 测验 长 度 为 六 ,判断 被 试 属于 类 别 s。 这 是 因为 当 H, 为 真 时 , 在 98; 内 的 似 然 函数 值 会 
10 


大 于 在 其 他 无 差别 区 域内 的 似 然 函数 值 , 从 而 使 得 C8, 的 值 较 小 而 其 他 的 Cj, 的 值 较 大 。 其 中 ， 
ast 是 一 个 事先 给 定 的 值 ， 表 示 在 Hs 为 真 时 接受 Hi 的 概率 。 


(2) AM, wi ROA 


6 所 定义 的 无 差别 


将 被 试 划分 到 类 别 s 或 s + 1 或 继续 测验 。 


2.3 似 然 比 规则 简 评 


似 然 比 检验 的 核心 思想 是 比较 有 约束 条 从 


区 间 ， 则 如 等 式 〈8) 一 样 计 算 Cs 以 诀 定 


的 似 然 函数 的 最 大 值 与 无 约束 条 件 的 似 然 函 


数 的 最 大 值 。 如 果 两 者 之 间 的 差异 不 大 ， 就 可 以 认为 对 参数 的 约束 有 效 ， 反 之 ， 则 认为 对 参 
数 的 约束 无 效 。 基 于 此 ， 似 然 比 规则 在 不 同类 别 下 ， 建 立 符合 该 类 别 约束 的 似 然 函数 ， 并 比 
较 不 同类 别 约束 条 件 的 似 然 函数 的 最 大 值 。 如 果菜 个 类 别 的 似 然 函 数 显著 大 于 其 他 类 别 ， 就 


可 以 认为 将 考生 划分 到 该 类 别 是 可 信 的 , 反之 继续 测验 。 由 于 似 然 比 检验 发 展 较为 完备 且 具 


有 良好 的 理论 性 质 和 检验 效果 , 因此 基于 似 然 比 检验 的 似 然 比 规则 是 目前 研究 最 为 集中 的 一 
类 CCT 终止 规则 ,已 有 研究 也 表明 似 然 比 规则 还 具有 较 好 的 稳健 性 , 比如 Huang 等 人 (2000) 


认为 即使 题目 参数 没有 得 到 准 古 
然 比 规 则 也 有 一 定 的 缺点 ， 例 如 : 
效率 。 尽 管 6 越 大 能 使 测验 越 快 结束 , 但 是 大 的 5 


角 标 定 ，SPRT 方法 也 能 获得 较为 准确 的 分 类 结果 。 但 是 ， 似 


C1) 5 的 取 值 在 很 大 程度 上 影响 着 SPRT 方法 的 准确 性 与 


会 影响 决策 的 精度 。 特 别 是 对 于 多 分 类 情境 ， 


如 果 6 过 分 大 的 话 ， 不 同 的 无 差别 区 域 很 容易 会 出 现 重 个， 从 而 使 得 我 们 很 难 去 解释 决策 的 


结果 。 所 以 ，6 的 取 值 范围 也 是 研究 者 需要 注意 的 一 个 方面 ，(2) 似 然 比 规则 在 复杂 测验 情 


境 ( 比 如， 多 维和 多 分 类 ) 下 的 拓展 比较 复杂 ; 
3 贝 叶 斯 决策 理论 规则 
贝 叶 斯 规则 是 另 一 类 重要 的 CCT 终止 规则 。 


以 贝 叶 斯 决策 论 为 基础 ， 通过 定义 后 验 概率 与 损失 函数 , 就 可 以 选择 期 望 损 失 最 小 的 决策 以 


完成 对 被 试 的 分 类 判断 。 其 中 
目前 为 止 ， 研 究 者 对 贝 叶 斯 规则 的 研究 基本 仍 限于 UCCT 情境 。 


3.1 阅 值 损失 


» TAR! 


C1) ZPR BRER ARE 
Lewis 和 Sheehan (1990) 在 二 分 类 情境 下 提出 一 种 阔 值 损失 函数 ， 也 即 用 不 同 的 常数 
来 评估 决策 所 有 可 能 结果 的 损失 。 表 1 展示 的 是 Lewis 和 Sheehan (1990) 的 研究 中 ， 作 答 


J OŽA Aa AY BE 


(3) 分 界 分 数 的 选取 具有 较 大 的 主观 性 。 


不 同 于 蕴含 假设 检验 的 规则 ， 贝 叶 斯 规则 


错误 决策 所 产生 ， 具 体 可 分 为 闵 值 损失 和 线性 损失 。 


表 1 阶段 i 时 的 二 分 类 阅 值 损失 函数 


决策 0=0, 0=0, 
被 试 属于 “未 掌握 ” K lo +j'le 
被 试 属于 “掌握 ” lo +j'le Nl 


其 中 ,i 表示 被 试 作答 一 道 题目 的 损失 ， 以 此 控制 测验 效率 (一 般 要 求 作答 每 道 题 目的 
损失 是 一 样 的 ) ;1o 为 “将 一 位 未 掌握 的 考生 划分 到 掌握 类 别 ” 的 损失 ，loi 为 “将 一 位 掌握 
的 考生 划分 到 未 掌握 类 别 ” 的 损失 , 以 此 控制 测验 精度 。 为 简便 起 见 , Lewis 和 Sheehan(1990) 
将 各 个 测验 阶段 和 各 个 决策 的 损失 值 都 设置 为 相同 。 需要 指出 的 是 , 正确 分 类 所 对 应 的 损失 
1oo 与 5 并 未 在 表 1 中 呈现 。 这 是 因为 ， 这 里 假定 正确 分 类 的 损失 相同 并 且 损 失 值 非常 小 。 
表 1 所 展示 的 损失 函数 是 重新 量 尺 化 后 的 结果 ,lo00 与 11 在 量 尺 转 换 后 变 为 0。 此外, 表 1 中 
并 没有 呈现 “继续 作 管 一 道 题目 ”的 损失 ,这 是 因为 继续 作答 的 损失 可 以 表示 为 与 测验 未 来 
阶段 中 的 分 类 决策 《〈 即 掌握 /未 掌握 ) 相关 的 损失 的 加 权 平 均 ， 权 重 等 于 得 到 相应 决策 的 概 

根据 贝 叶 斯 理论 ， 被 试 ;在 作答 六 道 题 后 属于 掌握 类 别 的 后 验 概 率 Pmjj 可 以 如 下 式 一 般 
进行 迭代 计算 ， 


P(Y; jrl8u) : Pmly-i (16) 


Pm=Pp0=07,)=—— ~ mit 
oe ( ei) P(Y; j*|9u) Pmj- + PCY "161) Prj 


Ep, Mj =I, Pry UBER AIT ER a. HH Puy = 1 一 Pmyo ER 
试 作答 题目 数量 为 7 时， 被 试 :被 划分 为 掌握 类 别 的 期 望 损失 (也 称 为 风险 函数 ) 为， 


Eg [L(0, MIY; y] = j'le + to (1 — Pmj) (17) 
其 中 ，!() 为 损失 函数 。 被 试 i 此 时 被 划分 为 未 掌握 类 别 的 期 望 损 失 为 ， 
Eg [L(0,n)|Y; j] = J" le + lor: Pmjj'- (18) 


此 外 ,被 试 : 还 可 能 被 要 求 继续 测验 。 而 计算 此 时 继续 测验 的 期 望 损失 就 需要 考虑 在 j + 
1 时 的 所 有 可 能 决策 的 损失 。 为 此 ， 首 先 计 算 被 坛 在 第 /+ 1 道 题目 上 的 作答 为 s 的 概率 ， 记 
为 Pslj。 可 以 将 Poy 表示 为 Pjy' 的 函数 ， BH, 


P 


sij! 7 P(Yi j = slYi p) = PY ij = s|,) Pri; + P(Vi jar = $|0u)P mij" (19) 
RH, P(Y; ray = s|91) 和 P(Yi ja. = s|9,) 分 别 是 “未 掌握 ”与 “掌握 ”的 被 试 在 第 j' + 1 题 
上 作答 为 s 的 概率 在 整个 题库 水 平 上 的 平均 值 。 

在 贝 叶 斯 规则 中 , 使 用 最 小 化 风险 函数 的 方式 给 出 决策 。 具体 地 说 , 在 最 大 测验 长 度 ( 即 


J =D, 由 于 必须 对 被 试 做 出 判断 而 不 能 继续 要 求 被 试 作 答 , 因此 可 以 直接 根据 公式 (17) 
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和 (18) 给 出 此 时 的 风险 函数 ， 并 取 使 得 风险 函数 最 小 的 分 类 判断 作为 决策 。 该 决策 可 以 表 
示 为 pnlj 的 函数 ， 即 


dy (Pm) = min{E,[1(6,m)|¥;,], Eo [l(6, 2) |¥i,|}- (20) 


在 < J 时 ,还 需要 考虑 继续 作答 的 损失 。 此 时 , ARSE EUR REN, AMEE 


可 


达到 最 大 长 度 之 前 继续 作答 的 期 望 损失 。 比 如 ， 如 图 3 所 示 ， 对 于 二 级 计 分 的 题目 ， 在 j = 


J 一 1 时 ， 被 试 分 别 以 Polj_1 和 Pilj_1 的 概率 答 错 或 答对 下 一 题 (第 / 题 )。 被 试 作答 第 / 题 后 ， 


由 于 达到 最 大 测验 长 度 , 只 需要 做 出 分 类 决策 而 不 需要 继续 作答 ， 所 以 此 时 的 风险 函数 就 如 
同等 式 (20) 。 


Psj-1 = Paya Psij-1 = Poly-1 


3 EB) 一 1 题 时 要 求 被 试 继续 作 答 的 损失 〈 以 二 级 计 分 题 为 例 ) 


于 是 ， 在 j = 了 一 1 时 要 求 被 试 继续 作 答 的 期 望 损 失 就 可 以 用 巴 
风险 函数 表示 ， 即 


=H 


期 被 试 作答 到 第 ] 题 时 的 


1 
Egli(0, OlYi,-1] = > Popa di (Pm) = Popa di (Pmyo) + Piy- ° dy (Piss), CY 
s=0 


中 ，c 表示 对 考生 的 判断 为 需要 继续 做 答 ，Pnj 和 Pnj) 分 别 表示 被 试 在 第 / 道 题 上 作 


IX 
of 


0 或 1 时 被 判断 为 掌握 类 别 的 后 验 概率 ， 其 计算 按 公 式 〈19) 进行 。 由 此 ， 在 = 了 一 1 时 的 
决策 可 记 为 ， 


dy-1(Pmjj-1) = min{E,[1(@,m)|¥;,)-1], Eo [L(0, 0Y i z-1], Eo[L(8, c)I¥i,y-a]}- (22) 
根据 上 式 就 可 以 对 被 试 进行 分 类 判断 。 具体 地 说 ,系统 将 选择 使 得 期 望 损失 最 小 的 决定 
(将 被 试 划 分 为 掌握 ， 未 掌握 或 要 求 继续 作答 ) ， 即 


停止 测验 ,K = j',D =m 若 Eg[1(9,m)|Yij_1| 最 小 
停止 测验 ,K = j,D =n BELO, nY]: 03) 
继续 测验 F Eg [LC0, c)|¥ j1 |A 


以 此 类 推 ， 就 可 以 得 到 在 六 = 也 时 被 试 继续 作答 的 期 望 损失 ， 并 选择 使 得 期 望 损 失 最 小 
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的 决定 完成 对 被 试 的 判断 。 

(2) 多 分 类 的 阔 值 损失 规则 

对 于 贝 叶 斯 规则 而 言 ， 从 二 分 类 到 多 分 类 的 推广 比较 简单 。 对 于 一 个 三 分 类 的 UCCT， 
只 需要 将 表 1 中 的 阔 值 损失 函数 替换 为 表 2 中 内 容 ， 再 选择 最 小 的 损失 即 可 完成 对 被 试 的 


分 类 判断 (Vos, 1999) 。 


R2 阶段 的 三 分 类 阅 值 损失 函数 


Re paom Augen O20m 
被 试 属于 “类 别 1” Ji; lz +j'le hs + 

被 试 属于 “类 别 2” bar +j'le Pis E 

被 试 属于 “类 别 3” lar + j'le lz +j'le jk 


3.2 线性 损失 

表 1 中 的 阔 值 损失 函数 具有 一 个 明显 的 缺点 : 它 假定 对 于 不 同 能 力 值 的 被 试 的 损失 是 恒 
定 的 ， 而 不 考虑 这 些 被 试 能 力 值 与 分 界 分 数 的 距离 。 但 事实 上 ， 能 力 值 离 分 界 分 数 更 远 的 被 
试 被 错误 分 类 所 造成 的 损失 往往 更 严重 。 此 外 ， 阔 值 损失 函数 的 值 也 不 是 连续 变化 的 ， 这 在 
很 多 情况 下 也 不 符合 现实 。 因 此 ， 一 种 更 合理 的 假设 是 : 损失 函数 是 关于 能 力 与 分 界 分 数 间 


距离 的 连续 增 函 数 (van der Linden & Mellenbergh, 1977; van der Linden & Vos, 1996; Vos, 1997a, 
1997b) 。 

(1) 二 分 类 的 线性 损失 规则 

Van der Linden 和 Mellenbergh (1977) 在 二 分 类 情境 下 ， 提 出 一 种 线性 损失 函数 ， 如 表 
3 所 示 。 可 以 发 现 ， 相 比 于 阔 值 损失 ， 线 性 损失 使 得 决策 成 本 可 以 随 “ 能 力 值 9 离 分 界 分 数 
6o 的 距离 ”的 变化 而 线性 变化 。 
表 3 阶段 /的 二 分 类 线性 损失 函数 


决策 0=0 0=0, 
被 试 属于 “未 掌握 ” by (8o — 0) + "le 
被 试 属于 “掌握 ” pz(bo 一 0) + j'le j'le 


其 中 ,斜率 bi 与 bs 是 由 有 经 验 的 专家 确定 。 在 给 定 损 失 函 数 后 ， 就 可 以 按照 后 验 概率 得 
到 损失 最 小 的 决策 ， 从 而 完成 对 被 试 的 分 类 。 

(2) 多 分 类 的 线性 损失 规则 

与 阐 值 损失 函数 类 似 , 在 多 分 类 情境 下 ， 只 需要 将 表 3 中 的 线性 损失 函数 蔡 换 成 表 4 中 
的 内 容 即 可 得 到 一 种 三 分 类 的 线性 损失 函数 (Vos, 1999) 。 


表 4 阶段 站 的 三 分 类 线性 损失 函数 


决策 054, Oiu < 0 < bz 0 = bau 
被 试 属于 “类 别 1” j'le bı (0 — 01) + j'le bı (0 — 01) + j'le 
被 试 属于 “类 别 2” b, (16 — 6*|- 6’) + j'le il, ba (8 — 6*|—- 0°) + j'le 
被 试 属于 “类 别 3” b3(02 — 0) + j'le b3 (82 — 0) + j'le j'le 

其 中 ，6* = (0, + 6,)/2, 0' = (0, — 01)/2。 


3.3 贝 叶 斯 规则 简 评 


贝 叶 


斯 规则 所 提供 的 思路 与 似 然 比 规则 的 完全 不 同 。 似 然 比 规则 是 通过 构造 似 然 比 统 


量 进行 假设 检验 ， 贝 叶 斯 方法 则 是 通过 作答 更 新 被 试 能 力 的 后 验 分 布 , 并 使 用 后 验 概率 计 


损失 函数 值 ， 从 而 基于 贝 叶 斯 决策 论 完 成 对 被 试 的 判断 。 


最 好 的 
该 方法 


指出 的 是 ,在 贝 叶 斯 规则 中 ， 有 无 数 种 可 能 的 损失 函数 ， 没 有 哪 一 种 损失 函数 一 
。 这 一 特点 既是 贝 叶 斯 规则 最 大 的 优点 ， 也 是 其 饱 受 诉 病 的 一 点 。 支 持 者 认为 这 
能 够 考虑 多 样 的 损失 函数 ， 具 有 更 大 的 灵活 性 ; 但 是 ， 反 对 者 认为 损失 函数 的 选 


上 


有 一 定 


程度 的 任意 性 。 在 使 用 该 方法 之 前 ， 研 究 者 需要 考虑 清楚 如 何 客观 、 科 学 地 选择 


4 置信 区 间 规 则 


除 似 


然 比 规 则 和 贝 叶 斯 规则 外 ，CCT 终止 规则 中 还 有 一 种 是 ACI 方法 。ACI 方法 通 ; 


比较 分 界 分 数 与 “被 试 能 力 估计 值 的 置信 区 间 ” 的 相对 位 置 ， 来 完成 对 被 试 的 分 类 判断 。 


4.1 置信 区 间 规 则 介绍 


目前 


， 对 于 这 种 方法 的 研究 较 少 且 集 中 在 二 分 类 的 UCCT 中 。 值得 注意 的 是 , ACI 中 


涉及 到 的 被 试 能 力 估 计 ， 既 可 以 使 用 极 大 似 然 估 计 也 可 以 使 用 贝 叶 斯 估计 。 有 共 体 而 言 ， 如 


使 


j 极 大 


以 然 估 计 ， 则 通过 测量 标准 误 (Standard Error of Measurement, SEM) 构造 置信 


间 ; 如 果 使 用 贝 叶 斯 估计 , 则 使 用 贝 叶 斯 后 验方 差 的 平方 根 构造 置信 区 间 。 分 类 测验 过 程 中 


不 


断 更 新 


的 被 试 i 的 能 力 估 计 值 的 置信 区 间 可 以 表示 为 ， 


计 
算 


定 


使 
择 


TH 


过 


所 
果 


xl 


d 


6; — Ze X Oerror < 8 < 6; + Ze X Gerror， (24) 


其 中 ,ze 为 (1-e) 的 置信 区 间 所 对 应 的 标准 正 态 分 布 分 位 数 , e = a + 6 为 两 类 错误 率 之 和 


6。 or 表示 对 能 力 的 极 大 似 然 估 计 中 的 SEM 或 贝 叶 斯 估计 中 后 验方 差 的 平方 根 。 例 如 , 如 
设置 第 | BR. BIRR RIYA 0.025, 那么 e 为 0.05, 这 时 z- 等 于 1.96. 在 极 大 似 然 估 计 中 
SEM 根据 被 试 ;的 所 有 已 作答 题目 的 Fisher 信息 量 计算 ， 即 


2 


四 
AN 


p: 


SEM = 7 (25) 


其 中 ， 万 表示 题目 为 被 试 ;提供 的 Fisher 信息 量 ， 对 j" 道 题目 的 信息 量 求 和 即 得 到 该 被 试 在 
CRA a EM (a. Thompson (2011) 的 研究 指出 ， 有 两 种 方式 可 以 实现 等 式 
(25) 的 计算 : 一 是 理论 最 大 值 的 SEM; 二 是 观察 分 数 的 SEM。 根 据 被 试 已 作答 题目 所 组 
成 的 测验 ， 理 论 最 大 值 的 SEM 是 在 被 试 能 力 所 有 可 能 取 值 的 范围 内 每 隔 一 定 步 长 〈《 比 如， 
在 [-3,3] 的 区 间 内 每 隔 0.01) 计算 一 个 的 SEM, 并 取 其 最 大 值 ; 观察 分 数 的 SEM 则 是 在 被 试 
的 能 力 估 计 值 处 , 计算 SEM。 简 小 珠 和 陈 平 2020) 指出 ,在 大 多 数 研究 中 都 使 用 观察 分 数 
的 SEM 进行 计算 。 

得 到 置信 区 间 [ 人 一 z。 x SEM, Â; + ze X SEM] 后 ，ACI 方法 的 分 类 准则 如 下 : 如 果 分 界 
分 数 低 于 该 区 间 的 下 界 ( 即 6 — Ze x SEM) ， 那 么 停止 测验 ， 测 验 长 度 为 1 ， 并 判断 被 试 属 
于 “未 掌握 ”; 如 果 分 界 分 数 高 于 该 区 间 的 上 界 ( 即 从 一 ze x SEM) ， 那 么 停止 测验 ， 测 验 
长 度 为 i ， 并 判断 被 试 属于 “掌握 ”;， 否 则 就 继续 进行 测验 。 
4.2 置信 区 间 规 则 简 评 

在 某 种 程度 上 ， 可 以 认为 ACI 方法 将 被 试 的 分 类 问题 转化 为 被 试 的 能 力 估 计 问 题 。 这 
样 做 的 好 处 是 使 得 对 被 试 的 分 类 变 得 非常 直观 、 简 洁 。 但 是 ， 这 种 方法 的 稳健 性 相对 较 差 。 
因为 使 用 该 方法 需要 有 足够 大 的 标定 题库 作为 前 提 , 否则 就 可 能 会 导致 较 高 的 错误 率 。 同 时 ， 
Eggen 和 Straetmans (2000) LA Thompson (2009) 的 研究 都 表明 : 该 方法 所 需 的 测验 长 度 
一 般 高 于 似 然 比 规则 。 
5 三 类 终止 规则 的 综合 分 析 
5.1 三 类 终止 规则 的 构造 思路 与 优 缺 点 分 析 

综 上 所 述 ， 三 类 终止 规则 各 有 优 缺 点 。 其 中 ， 似 然 比 规则 基于 似 然 比 检验 ， 具 有 较 好 的 
理论 性 质 ， 大 多 数 测验 情境 下 最 为 准确 、 高 效 ， 相 关 研究 也 较 多 。 但 是 ， 由 于 需要 定义 无 差 
1 区间 大 小 和 第 I、 第 IL 类 错误 率 ， 引 入 了 主观 因素 的 影响 ， 并 且 该 方法 在 多 维 、 多 分 类 等 


= 


复杂 测验 情境 下 的 拓展 难度 较 大 .已 有 的 多 分 类 SPRT 终止 规则 (Sobel-Wald 方法 与 Armitage 
方法 ) 是 对 多 个 能 力 分 界 点 独立 进行 假设 检验 ， 因 此 会 隐 含 多 重 比较 的 问题 ， 即 实际 的 第 I 
和 第 开 类 错误 率 远 大 于 设 定 标准 。 尽 管 已 有 研究 者 留意 到 这 一 点 〈Wang, 2019; Wang et al., 
2021) ， 但 由 于 第 I 和 第 I 类 错误 率 的 变化 并 不 是 影响 SPRT 规则 的 分 类 准确 性 的 主要 因 


素 ， 所 以 较 少 有 研究 对 其 进行 校正 。 
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贝 叶 斯 规则 通过 后 验 概率 与 损失 函数 ,完成 对 被 试 的 分 类 判断 。 该 方法 无 需 事先 给 定 第 
I 和 第 工 类 错误 率 ， 它 以 更 全 局 的 角度 动态 优化 决策 ， 从 测验 最 后 的 阶段 向 前 倒 推 .， 因此 每 


一 步 的 损失 判断 都 能 考虑 到 整个 测验 过 程 。 损 


失 函 数 的 多 样 性 使 得 该 方法 的 形式 非常 灵活 ， 


也 使 得 该 方法 很 容易 就 可 以 被 应 用 于 不 同 的 测验 情境 中 。 但 是 , 该 方法 也 存在 一 定 问题 :(1) 


当 结合 IRT 模型 时 ， 从 后 向 前 的 损失 函数 计算 量 会 变 得 十 分 巨大 ， 不 利于 该 方法 的 实施 ; 
(2) 正如 公式 〈19) 所 示 ， 已 有 的 贝 叶 斯 方法 在 计算 “下 一 道 题 得 到 特定 作答 的 概率 ， 即 


的 是 在 题库 所 有 题目 上 的 概率 的 平均 值 〈 即 


j (v = s|0,) BRP Yi +1 


= s|@) ”时 使 有 


ij +1 


认为 每 道 题 目 在 下 一 阶段 具有 同等 地 位 ) ， 这 
式 的 灵活 会 不 可 避免 地 导致 使 用 者 在 损失 函数 
生 由 于 损失 函数 选取 不 恰当 而 导致 的 误差 。 


过 


显然 不 符合 自 适 应 的 特性 ; (3) 损失 函数 形 
的 选择 上 产生 疑问 , 也 可 能 会 在 实际 应 用 中 产 


ACI 方法 直接 将 分 界 分 数 与 能 力 估计 值 的 置信 区 间 进 行 比较 , 无需 划 定 无 差别 区 间 , 并 


且 计 算 简单 且 计 算 量 小 ， 是 三 种 方法 中 最 直接 
测验 效率 也 相对 较 低 。 表 5 是 对 上 述 各 种 方法 


的 一 类 方法 。 但 是 ， 这 种 方法 的 稳健 性 较 差 ， 


的 总 结 。 


表 5 CCT 终止 规则 的 总 结 


核心 原理 类 别 数 ”维度 数 终止 规则 构造 思路 
似 然 比 规则 
序 贯 似 然 比 二 分 类 单 维 SPRT 在 分 界 点 处 构造 一 组 简单 假设 及 对 应 的 序 贯 似 
然 比 统计 量 
SCSPRT 在 SPRT 的 基础 上 结合 随机 缩减 技术 
多 维 。 C-SPRT 通过 似 然 函 数 约束 转化 为 SPRT 
P-SPRT 通过 欧 氏 空间 投影 转化 为 SPRT 
M-SCSPRT 在 C-SPRT 的 基础 上 结合 随机 缩减 技术 
多 分 类 单 维 Sobel-Wald 方法 在 每 个 分 类 点 处 进行 一 次 SPRT 
Armitage 方法 为 所 有 可 能 的 类 别 组 合 进行 SPRT 
广义 似 然 比 ”二 分 类 单 维 GLR 在 分 界 点 处 构造 一 组 复杂 假设 及 对 应 的 广义 似 
然 比 统计 量 
M-GLR 将 GLR 中 的 能 力 区 间 转 化 为 多 维 能 力 空间 
多 维 SCGLR 在 GLR 的 基础 上 结合 随机 缩减 技术 
多 分 类 单 维 mGLR 对 被 试 属于 每 个 类 别 构造 一 组 复杂 假设 及 对 应 
的 广义 似 然 比 统计 量 


贝 叶 斯 规则 
BERR 二 分 类 ” 单 维 Lewis-Sheehan 方法 确定 每 种 决策 所 对 应 的 损失 
多 分 类 Vos 方法 确定 每 种 决策 所 对 应 的 损失 
线性 损失 二 分 类 Linden-Mellenbergh 方 ”确定 每 种 决策 所 对 应 的 损失 ， 并 考虑 能 力 估 计 
法 值 与 分 界 点 的 距离 
多 分 类 Vos 方法 确定 每 种 决策 所 对 应 的 损失 ， 并 考虑 能 力 估 计 
值 与 分 界 点 的 距离 
置信 区 间 规 则 
信 区 间 二 分 类 单 维 ACI 比较 能 力 估计 值 的 置信 区 间 与 分 界 点 的 相对 位 
置 


5.2 三 类 终止 规则 的 适用 情境 


需要 指出 的 是 ，CCT 是 一 个 非常 复杂 的 测验 系统 。 终 止 规则 的 优 劣 还 会 受到 CCT 中 其 
他 部 分 〈《 比 如， 心理 测量 模型 、 题 库 结 构 、 被 试 能 力 分 布 以 及 选 题 策略 ) 的 影响 ， 三 类 终止 
规则 在 不 同 的 测验 情境 下 各 占 鳌头 。 因 此 ， 实 践 者 在 选择 终止 规则 时 需要 综合 考虑 CCT 的 


各 个 部 分 以 明确 三 类 终止 规则 的 适用 情境 。 另 外 , 还 需要 注意 相应 情境 下 可 能 面临 的 现实 问 


题 。 


对 于 似 然 比 规则 , 想 要 准确 且 快速 做 出 决策 的 关键 在 于 最 大 程度 地 区 分 不 同类 别 被 试 的 
似 然 函 数值 ， 而 这 通常 和 选 题 策略 密切 相关 。 举 例 而 言 , 在 UCCT 中 ， 两 种 常见 的 选 题 策略 


AF 


是 基于 能 力 估计 值 的 最 大 信息 量 选 题 方法 (estimate-based maximum Fisher information) 和 基 


于 分 界 分 数 的 最 大 信息 量 选 题 方法 (cutscore-based maximum Fisher information) 。 因 此 ， 当 
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选 题 策 略为 后 者 时 ， 所 选 的 题目 能 够 为 假设 检验 提供 更 多 的 信息 ,因此 似 然 比 规则 在 基于 分 
界 分 数 的 最 大 信息 量 选 题 方法 下 的 效率 最 高 .但 是 由 于 基于 分 界 分 数 会 因为 固定 点 选 题 而 导 
致 题目 高 曝光 的 问题 , 所 以 似 然 比 规则 更 适用 于 低 风 险 的 测验 , 而 且 要 求 题库 中 大 部 分 题目 
在 分 界 分 数 处 具有 高 信息 量 。 此 外 ， 由 于 GLR 考虑 无 差别 区 间 两 侧 的 所 有 对 数 似 然 函数 值 
(不 仅 着 眼 于 上 、 下 界 两 个 点 ) ， 所 以 相 比 于 SPRT，GLR 在 基于 当前 能 力 估计 选 题 时 也 能 
保持 一 定 的 效率 。 

对 于 贝 叶 斯 规则 ,高 效 分 类 的 关键 在 于 最 大 程度 地 区 分 不 同 决策 损失 的 差异 。 由 于 不 同 
决策 损失 函数 的 计算 同样 基于 9 和 6.， 所 以 在 基于 分 界 分 数 的 选 题 方法 下 会 有 更 好 的 表现 。 
同样 ， 考 虑 到 题目 曝光 率 的 问题 ， 贝 叶 斯 方法 更 适用 于 低 风 险 的 测验 。 另 外 ， 由 于 贝 叶 斯 方 
法 能 够 针对 不 同 的 决策 损失 进行 控制 ， 所 以 适用 于 需要 降低 特定 类 型 决策 损失 的 测验 。 

对 于 置信 区 间 规 则 ， 保 障 决 策 效率 的 关键 在 于 不 断 地 减 小 能 力 估计 标准 误 。 因 此 ，ACI 
方法 在 基于 能 力 估计 值 的 最 大 信息 量 选 题 方法 下 的 效率 最 高 , 该 选 题 策略 可 以 减 小 置信 区 间 
的 大 小 。 此 外 ， 根 据 不 同 被 试 的 能 力 ，ACI 规则 能 够 为 不 同 被 试 呈现 不 同 的 题目 ， 在 一 定 程 
度 上 能 降低 高 信息 量 题目 的 曝光 率 , 所 以 它 可 以 用 于 高 风险 的 测验 , 相应 地 需要 题库 中 的 题 
目 在 不 同 能 力 位 置 具有 高 信息 量 。 但 是 Tian (2018) 在 控制 分 类 ;准确 性 一 致 的 前 提 下 ， 采 用 
基于 能 力 估计 值 的 选 题 方 法 ， 比 较 单 维 二 分 类 的 似 然 比 规则 和 置信 区 间 规 则 。 结 果 发 现 : 当 
被 试 能 力 分 布 远离 分 界 分 数 时 ，ACI 规则 的 效率 要 高 于 似 然 比 规则 ; 但 是 在 被 试 能 力 分 布 千 
近 分 界 分 数 时 ，ACI 规则 效率 低 于 GLR 方法 。 这 意味 着 ACT 规则 的 表现 还 会 受到 被 试 能 力 
分 布 与 分 界 分 数 相 对 位 置 的 影响 ， 因 此 更 适用 于 要 求 高 通过 率 或 低 通过 率 的 测验 。 
© 6 未 来 研究 方向 及 应 用 

6.1 CCT 终止 规则 的 未 来 研究 方向 

本 文 对 多 种 测验 情境 下 的 CCT 终止 规则 进行 系统 梳理 与 述评 。 目 前 , 对 CCT 终止 规则 
的 研究 已 经 比较 丰富 ， 但 仍 有 一 些 地 方 有 待 完善 。 未 来 研究 方向 主要 表现 在 以 下 四 方面 : 

(1) 完善 基于 贝 叶 斯 的 终止 规则 。 构 建 CCT 终止 规则 的 思路 主要 有 三 个 角度 ， 即 似 然 
比方 法 、 贝 叶 斯 方法 和 置信 区 间 方 法 。 基 于 似 然 比方 法 的 终止 规则 已 经 得 到 充分 的 发 展 , 但 
如 前 所 述 ， 以 贝 叶 斯 方法 为 基础 的 终止 规则 仍然 较 少 。 未 来 , 研究 者 可 以 考虑 基于 贝 叶 斯 方 
法 对 前 人 研究 进行 完善 。 例 如 ， 在 现实 测验 情景 中 ， 除 考虑 决策 的 准确 率 和 测验 长 度 之 外 ， 
还 需要 满足 其 他 非 统 计 约束 (如 : 内 容 均衡 ， 即 让 试卷 充分 涵盖 所 要 考察 的 知识 模块 ) 。 由 
于 贝 叶 斯 损失 函数 具有 灵活 性 , 研究 者 可 以 考虑 将 各 种 非 统计 约束 纳入 终止 规则 的 考虑 范围 。 
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此 外 ,正如 5.1 部 分 所 言 ， 目 前 贝 叶 斯 方法 没有 利用 已 有 的 信息 对 被 试 即 将 作答 的 下 一 道 题 
进行 预测 ， 未 来 研究 可 以 借鉴 似 然 比方 法 中 随机 缩减 的 思想 来 构造 一 组 “合适 ”的 题目 替代 
被 试 未 来 实际 作答 的 题目 。 最 后 , 研究 者 还 可 以 对 损失 函数 中 损失 值 的 选取 如 何 影 响 测验 结 
果 进 行 讨论 。 

(2) 开发 多 维 多 分 类 的 CCT 终止 规则 。 多 维 或 多 分 类 的 CCT 终止 规则 是 近期 的 一 个 
研究 热点 ， 但 尚未 有 研究 者 探究 同时 满足 多 维 、 多 分 类 要 求 的 CCT 终止 规则 。 在 现实 应 用 
中 , 许多 测验 不 仅 要 同时 考察 被 试 在 多 个 维度 上 的 潜在 特质 , 而 且 也 需要 将 被 试 分 到 多 于 两 
个 的 类 别 中 。 例如， 教育 工作 者 希望 将 学 生 的 数学 成 就 水 平 划分 为 基础 、 熟 练 和 高 级 三 个 类 
别 《〈 比 如 ， 美 国 国家 进步 教育 评估 NAEP) ; 而 数学 测验 也 往往 同时 考察 学 生 的 算术 、 阅 读 
和 问题 解决 能 力 等 ， 呈 现 出 多 维 的 能 力 结构 〈Reckase,2009) 。 这 就 对 构建 多 维 、 多 分 类 的 


=a 
> CCT 终止 规则 提出 迫切 需求 。 

co 

= (3) 开发 融合 作答 时 间 (Response Time, RT; iiia 等 ,2020) 的 CCT 终止 规则 。 近 
O 

= 几 年 来 ,心理 测量 学 的 研究 重点 大 都 放 在 如 何 同 时 衡量 多 个 维度 的 潜在 特质 ， 以 向 被 试 提供 
= 

一 更 详细 、 更 完善 的 反馈 。 但 是 这 些 研究 大 多 只 考虑 被 试 的 作答 信息 ， 而 很 少 使 用 行为 信息 。 
= 在 CCT 测验 中 ， 有 一 类 很 容易 获得 的 行为 信息 ， 即 被 试 作答 所 用 的 时 间 。Sie A (2015) 
N 


© 尝试 构建 融入 RT 的 CCT， 他 们 的 研究 结果 表明 : 融入 RT 后 ， 测 验 在 分 类 精度 轻微 提高 的 
= 同时 还 能 够 减少 平均 测验 时 间 。 但 是 ，Sie FA (2015) 的 研究 主要 集中 在 限制 被 试 作答 时 
间 ， 而 未 考虑 更 普遍 的 限制 测验 长 度 的 情况 。 未 来 , 研究 者 可 以 在 上 述 研 究 的 基础 上 进一步 
Z 展开 探索 , 开发 新 的 结合 RT 的 CCT 终止 规则 , 在 保持 判断 准确 率 的 基础 上 缩短 测验 长 度 ， 


而 不 仅仅 是 控制 测验 时 间 。 另 外 ， 可 以 考虑 如 何 利用 作答 时 间 提 高 分 类 决策 的 精度 ， 进 而 间 


接 提高 测验 效率 (Man et al., 2019; 詹 沛 达 , 2019) 。 

(4) 开发 结合 机 器 学 习 算 法 的 CCT 终止 规则 。 目前 的 三 类 终止 规则 均 为 基于 心理 测量 
模型 的 方法 , 模型 的 正确 设 定 和 前 提 假 设 的 满足 对 结果 有 重要 的 影响 , 然而 实践 中 的 数据 往 
往 掺 杂 着 各 式 各 样 的 噪音 。 机 器 学 习 是 近年 来 各 个 领域 研究 的 热点 , 其 中 许多 算法 都 是 用 来 
解决 分 类 问题 ， 这 与 CCT 的 目的 相 一 致 。Gonzalez (2021) 认为 ， 相 比 于 比较 “通过 各 种 模 
型 估计 得 到 的 被 试 能 力 ” 与 “黄金 标准 ”来 获得 被 试 的 类 别 ， 机 器 学 习 算法 通过 被 试 的 作答 
就 能 直接 预测 被 试 属于 某 个 类 别 的 概率 , 避免 模型 不 拟 合 等 引起 的 误差 ,Zheng 等 人 (2020) 
基于 机 器 学 习 算法 中 的 决策 树 方法 ,开发 出 一 个 短 的 基于 树 的 自 适应 分 类 测验 。 未 来 , 研究 
者 可 以 考虑 使 用 其 他 的 分 类 算法 (比如 , 逻辑 斯 蒂 克 回归 、 支 持 向 量 机 以 及 随机 森林 等 方法 ) 


成 自 适 应 分 类 测验 。 


出 | 


al 
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6.2 CCT 终止 规则 的 应 用 

CCT 测验 主要 包含 两 种 类 型 : 合格 性 测验 与 临床 医学 问卷 。 在 为 不 同类 型 的 测验 制定 
终止 规则 时 ， 应 充分 考虑 测验 的 考生 群体 、 试 题 特点 以 及 决策 影响 。 
在 合格 性 测试 中 ， 通 过 设置 不 同 难度 的 试题 ， 将 考生 划分 到 不 同 能 力 水 平 ， 根 据 考 生 的 
等 级 水 平 ， 来 决定 其 从 业 资 格 、 学 业 进 度 或 升学 。 许 多 职业 资格 考试 都 属于 这 类 测验 ， 比 如 
教师 资格 考试 、 司 法 考试 和 执业 医师 资格 考试 等 ; 此外， 还 有 一 些 学 业 水 平 考试 也 属于 合格 
性 测验 ， 比 如 大 学 英语 四 、 六 级 考试 、 计 算 机 二 级 考试 以 及 初中 学 业 水 平 测试 等 。 对 于 此 类 
测验 ,往往 每 年 均 有 数量 庞大 的 考生 群体 ， 具有 充足 的 测验 经 费 和 考生 样本 ,相应 地 能 够 建 
立 起 一 定 规模 的 题库 ,并 在 一 定 程度 上 能 保障 题目 参数 的 稳定 估计 , 使 得 合格 性 测验 具有 运 
用 三 类 终止 规则 的 潜力 。 但 是 ， 似 然 比 规则 与 贝 叶 斯 规则 的 原理 较为 复杂 ， 且 正如 5.2 部 分 
所 言 ， 这些 方法 在 实践 中 伴随 着 题目 曝光 率 过 高 的 问题 。 因此, 在 现 有 的 合格 性 测验 尤其 是 
高 风险 的 合格 性 测验 中 ， 鲜 有 这 两 类 方法 的 应 用 。 与 上 述 两 种 规则 的 困境 形成 对 比 的 是 ， 置 
信 区 间 规 则 原理 简明 易 懂 、 分 类 结果 清晰 , 更 能 为 大 众 和 教育 工作 者 所 理解 ,更 具有 推广 性 ， 


在 现实 中 就 显得 更 加 可 行 。 比 如 ， 美 国联 合 委员 会 注册 护士 执照 考试 (the National Council 


Licensure Examination for Registered/Practical Nurse, NCLEX-RN) 就 使 用 ACI 规则 来 决定 测 
验 何 时 终止 。 

在 临床 医学 问卷 中 , 通过 评价 患者 在 不 同 指标 上 的 轻重 程度 或 近期 的 心理 生理 状态 , 将 
患者 划分 到 不 同 症状 水 平 ， 来 为 其 后 续 的 治疗 和 诊断 提供 依据 。 比 如 ， 汉 密 尔 顿 抑郁 量 表 
(Hamilton Rating Scale for Depression, HRSD) 和 创伤 后 应 激 障 碍 量 表 (Posttraumatic Stress 
全 Disorder Checklist, PCL〉。 对 于 此 类 测验 ， 被 试 群体 往往 很 小 ， 且 问卷 的 题 项 并 不 具有 一 般 

意义 上 的 难度 。 更 重要 的 是 ， 假 阴性 false negative〉 的 分 类 结果 所 带 来 的 代价 不 可 忽视 。 
因此 , 考虑 到 相 比 于 另外 两 类 终止 规则 ， 贝 叶 斯 终止 规则 能 够 对 各 种 分 类 损失 有 更 精细 的 控 
制 ， 在 临床 医学 问卷 中 更 为 适用 。 目 前 ， 终 止 规则 在 临床 医学 问卷 中 的 应 用 目的 主要 为 : 在 
保证 决策 准确 基础 上 缩短 已 有 问卷 的 长 度 , 使 得 诊断 过 程 更 高 效 ， 比 如 利用 机 器 学 习 模型 或 
随机 缩减 技术 进一步 缩减 问卷 长 度 (Gonzalez, 2021; Smits et al., 2016) 。 还 需要 注意 的 是 ， 
临床 问卷 以 往 直 接 使 用 观测 分 数 与 诊断 临界 值 相 比 较 , 而 已 有 的 终止 规则 主要 基于 潜在 特质 
进行 计算 。 但 随 着 IRT 研究 的 推进 ， 越 来 越 多 的 研究 者 使 用 IRT 模型 对 临床 问卷 建 模 ， 比 如 


LiA (2019) 将 等 级 反应 模型 (Graded Response Model, GRM) 应 用 于 病人 健康 问卷 (the 


y 


Patient Health Questionnaire, PHQ) 。 因 此 ， 相 比 于 Smits ŒA (2016) 使 用 基于 观测 分 数 的 


CCT 并 选择 随机 缩减 的 倒计时 法 (countdown method) 作为 终止 规则 ， 贝 叶 斯 规则 或 许 既 能 
21 


够 缩短 测验 长 度 ， 又 能 在 每 一 步 中 严格 控 秆 


| 诊断 的 损失 。 
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Types, characteristics and application of Termination Rules in 


Computerized Classification Testing 


REN He, HUANG Yingshi, CHEN Ping 


(Collaborative Innovation Center of Assessment for Basic Education Quality, Beijing Normal University, 


Beijing 100875, China) 


Abstract: Computerized classification testing (CCT) has been widely used in eligibility testing and 
clinical psychology since it can efficiently classify participants. As an essential part of CCT, the 
termination rule determines when the test is to be stopped and what category the participants are 
ultimately classified into, directly affecting the test efficiency and classification accuracy. The 
existing termination rules can be roughly divided into the likelihood ratio, Bayesian decision theory, 
and confidence interval rules. And their core ideas are constructing hypothesis tests, designing loss 
functions, and comparing the relative positions of confidence intervals, respectively. Based on these 
ideas, in different test situations, CCT termination rules have various specific forms. Future research 
can further extend Bayesian rules, construct rules for multicategory MCCT, integrate process data 
into termination rules, and build rules under the framework of machine learning. In addition, from 


the perspective of practical requirement, all three types of rules have the potential to be applied in 
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the eligibility test, while the clinical questionnaire tends to choose Bayesian rules. 


Key words: computerized classification testing, termination rule, likelihood radio, stochastic 


curtailment, Bayesian decision theory 
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